Datenmangel und KI-Lösungen: Sozialforschung auf neuen Wegen
20.01.2025
Die Sozialwissenschaften sind auf Umfrage- oder Nutzerdaten angewiesen. LMU-Forschende setzen dafür zunehmend auf Künstliche Intelligenz und werten digitale Spuren aus.
20.01.2025
Die Sozialwissenschaften sind auf Umfrage- oder Nutzerdaten angewiesen. LMU-Forschende setzen dafür zunehmend auf Künstliche Intelligenz und werten digitale Spuren aus.
Daten sind unverzichtbare Basis für seriöse sozialwissenschaftliche oder statistische Forschung. Sie können Informationen darüber liefern, wie Menschen etwa zur Demokratie in einer Gesellschaft stehen, wie sich der Arbeitsmarkt entwickelt oder wie stark die Schere zwischen Arm und Reich auseinandergeht: Sie sind Futter für die Studien, deren Ergebnisse auch für politische Entscheidungen sehr relevant sein können. Ist die Datenquelle nicht verlässlich, kann das unerwünschte Folgen haben.
„Tatsächlich kann man bei sehr vielen Umfragen davon ausgehen, dass es starke Abweichungen von der Zufallsstichprobe gibt. Die Folge sind Verzerrungen, wenn eine Beschreibung der Gesamtbevölkerung erreicht werden soll“, erklärt Soziologin Katrin Auspurg. „Das hat sich zum Beispiel bei Umfragen während der Coronapandemie gezeigt, wo Ältere und geringer Gebildete oft gefehlt haben. Dadurch wurden gesellschaftlich und politisch etliche Probleme, die diese Personen hatten, zu wenig berücksichtigt.“
Tatsächlich kann man bei sehr vielen Umfragen davon ausgehen, dass es starke Abweichungen von der Zufallsstichprobe gibt. Die Folge sind Verzerrungen, wenn eine Beschreibung der Gesamtbevölkerung erreicht werden soll.Katrin Auspurg, Inhaberin des Lehrstuhls für quantitative Methoden der empirischen Sozialforschung
Ein Problem, das Forschende in den Sozialwissenschaften vor Herausforderungen stellt, ist daher von größerer gesellschaftlicher Relevanz: Daten sind immer schwerer mit den traditionellen Methoden zu erheben. „Viele Menschen, die wir für eine Befragung gewinnen wollen, nehmen gar nicht mehr teil“, weiß der Politikwissenschaftler Professor Alexander Wuttke von der LMU, der unter anderem zur Demokratieentwicklung in Deutschland forscht. Ein Problem sieht er im Bereich der Demokratieforschung zum Beispiel in einer generell wachsenden Skepsis gegenüber der Wissenschaft.
Katrin Auspurg, deren wissenschaftlicher Schwerpunkt auf der quantitativen Sozialforschung liegt, bestätigt diesen Trend: „In den 1980er-Jahren machten bei Bevölkerungsumfragen wie dem ALLBUS noch 70 Prozent der Angeschriebenen mit. Inzwischen sind es nur noch um die 30 Prozent. Generell kann man bei persönlichen oder postalischen Umfragen, die auf Einwohnermeldeamts-Stichproben basieren, nur noch mit einer Teilnehmerquote von einem Drittel rechnen. Bei telefonischen Umfragen sind die Quoten oftmals noch deutlich geringer.“
Viele Menschen, die wir für eine Befragung gewinnen wollen, nehmen gar nicht mehr teil.Alexander Wuttke, Professor für Digitalisierung und Politisches Verhalten
Als Herausforderung sieht Auspurg vor allem auch Änderungen in der Umfragekultur. „Die Anzahl von Umfragen hat massiv zugenommen, weil es online viel einfacher und günstiger geworden ist, sie durchzuführen.“ Hinzu komme, dass es darin häufig nicht einmal um wissenschaftliche, sondern um Marktforschung gehe. Auch Werbeanrufe würden immer wieder als Umfrage getarnt.
Schließlich beeinflussten auch demographische Aspekte den Zugang zu den Menschen. „Personen mit mittlerem Einkommen etwa“, sagt Auspurg, „sind leichter für Umfragen zu rekrutieren. Menschen mit geringerer Bildung, ältere Personen oder solche mit Migrationshintergrund sind dagegen schwerer für Umfragen zu gewinnen.“ Korrigiert man das nicht in Datenauswertungen, leiden Umfragen unter einem sogenannten Mittelschichtbias.
Alexander Wuttke betont, dass auch Telefonbefragungen zunehmend schwieriger würden, „weil viele Haushalte kein Festnetz mehr nutzen und Mobiltelefonate weniger häufig angenommen werden“. Viele Bevölkerungsschichten würden so exkludiert und der Anspruch auf Repräsentativität würde so eher zu einer Illusion.
„Das Wort ‚repräsentativ‘ ist oft eine Nebelkerze und bleibt unklar. Für eine Verallgemeinerung braucht es eine Zufallsstichprobe, die möglichst nah an der Gesamtbevölkerung ist“, sagt Katrin Auspurg. „Aber es kann je nach Fragestellung sinnvoll sein, von einer zufälligen Stichprobe abzuweichen, um bestimmte Aspekte gezielt zu untersuchen.“ Etwa für die experimentelle Forschung oder wenn Zusammenhänge in speziellen und schwer erreichbaren Gruppen untersucht werden sollen. Dann sollte die Art der Stichprobe aber klar erläutert und begründet werden.
Herausforderungen gibt es also viele. Aber die Forschenden sind ideenreich, rufen aktiv alternative Datenquellen ab oder greifen auf digitale Datenspuren zurück. Alexander Wuttke: „Wenn Menschen Plattformen wie zum Beispiel X nutzen und ihre Meinung dort äußern, hinterlassen sie digitale Spuren, die sich öffentlich beobachten und analysieren lassen. Das ist ein wichtiger Trend in der Forschung, der als Ergänzung zur Surveyforschung entstanden ist. So können wir etwa erheben, wenn sich User demokratiefeindlich äußern.“ Aber es ließe sich so eben kein Bevölkerungsquerschnitt abbilden, sondern man könne allenfalls auswerten, was X-User sagen.
Dennoch, unterstreicht Frauke Kreuter, Professorin am Institut für Statistik der LMU, bergen digitale Daten ein enormes Potenzial. Im Vergleich zu traditionell erhobenen sind sie zum einen deutlich günstiger. Zum anderen auch leichter, weil passiv zu erheben: Man ist weniger auf die Erinnerungsfähigkeit der Befragten angewiesen und kann zum Beispiel bei Gesundheitsstudien einfach mitmessen, wie viele Schritte eine Person geht, anstatt zu fragen, wie viel sie sich im vergangenen Jahr bewegt hat.
Mehr noch: Die seit 2018 EU-weit gültige Datenschutz-Grundverordnung, kurz DSGVO, eröffnet für die Forschenden zudem das Mittel der sogenannten Data Donations oder Datenspenden: Anbieter von Onlinediensten müssen ihren Nutzerinnen und Nutzern auf deren Verlangen deren Userdaten zur Verfügung stellen. „Wir können diese Menschen dann anfragen, ob sie sie uns zu Forschungszwecken – im Sinne einer Citizen Science – überlassen möchten“, so Kreuter.
Leider wird bei der Nutzung digitaler Daten oft nicht auf die Prozesse geachtet, mit denen Daten generiert werden und woher diese kommen.Frauke Kreuter, Inhaberin des Lehrstuhls für Social Data Science
Allerdings haben auch digitale Daten ihre (noch) nicht gelüfteten Geheimnisse. „Leider wird bei ihrer Nutzung oft nicht auf die Prozesse geachtet, mit denen Daten generiert werden und woher diese kommen.“ Als einen Grund sieht Frauke Kreuter, dass sich Plattformbetreiber im Hinblick auf die Funktionen ihrer Algorithmen ungern in die Karten schauen ließen.
Zudem sei auch noch zu wenig bekannt über das Sozialverhalten bei der Nutzung von digitalen Medien. „Da wird dann nicht berücksichtigt, wenn zum Beispiel mehrere Personen ein und dasselbe Endgerät nutzen. Oder wenn Frauen ihr Smartphone statt am Körper in der Handtasche tragen – die sie auch mal abstellen. Wenn man so beispielsweise die täglich gemachten Schritte messen will, wären die Daten falsch.“
Auch gestalte sich die Auswertung digitaler Daten schwieriger. „So viele Datenspezialisten haben wir gar nicht, wie dafür nötig wären, um beim passiven Mitlesen alles richtig zu machen“, meint Kreuter lapidar.
Eine weitere wichtige Quelle für die Forschung, so die LMU-Wissenschaftlerin, könnten administrative Daten sein, wie sie von öffentlichen Institutionen erhoben würden. Hier sei der Datenschutz allerdings eher ein Hindernis, das den Zugriff erschwere. Frauke Kreuter: „In Dänemark etwa sind administrative Registerdaten für die Forschung zugänglich. Auch ist das Wissen über die Bevölkerung präziser. Da gibt es hierzulande noch deutlichen Nachholbedarf.“
Den Grund für die deutsche Zurückhaltung sieht sie in einem generellen Missverständnis, das nicht unterscheide zwischen dem Schutz von Daten und dem Schutz der Menschen oder Institutionen, die diese liefern. „Hier wäre ein Umdenken wünschenswert, damit die Wissenschaft ungehinderter auf nicht personenbezogene Daten zugreifen kann“, so Kreuter.
Eine Möglichkeit, den Zugriff auf Daten von öffentlichen Institutionen dennoch zu ermöglichen, können Kooperationen sein, bei denen beide Seiten profitieren: Die Wissenschaft könnte Verwaltungsmitarbeitenden das Handwerkszeug vermitteln, mit ihren Daten eigene Prozesse besser zu managen und selbst Kenntnisse daraus zu ziehen. Umgekehrt können die Daten selbst den Wissenschaften für ihre Arbeit zur Verfügung gestellt werden. Schon in den USA, wo sie immer noch forscht, hat Frauke Kreuter mit Kolleginnen und Kollegen eine vielversprechende Initiative dazu gestartet.
„In Deutschland haben wir jüngst mit der Generaldirektion der staatlichen Archive und der bayerischen Justiz zusammengearbeitet“, erzählt die Professorin. „Wir haben 60.000 Aktendeckel in eine sichere Cloud-Umgebung geschafft und den Mitarbeiterinnen und Mitarbeitern gezeigt, wie sie zum Beispiel Stichproben daraus ziehen können.“ Gleichzeitig, so Kreuter, konnten Studierende und Doktoranden Forschungsfragen mit diesen Daten bearbeiten.
Alles in allem, da sind sich die LMU-Forschenden sicher, könnte ein Mix aus den verschiedenen Herangehensweisen in puncto Datenerhebung helfen, die Lücke zu schließen, die sich aus den Schwierigkeiten bei traditionellen qualitativen und quantitativen Umfragen auftue.
Alexander Wuttke verweist darauf, dass in der Demokratieforschung zum Beispiel durch Triangulation – also die Nutzung unterschiedlicher Datenquellen – Diskrepanzen erkannt und eingeordnet werden können: „In Umfragen sehen wir, dass die Leute angeben, die Demokratie zu schätzen, aber gleichzeitig gibt es ein antidemokratisches Wahlverhalten. Durch die Kombination verschiedener Datenquellen können wir besser verstehen, warum diese Diskrepanzen auftreten.“
Aber auch in der traditionellen Forschungspraxis könnte man sich in naher Zukunft die Arbeit deutlich erleichtern. „Ich denke, dass die Künstliche Intelligenz uns helfen kann, das Spannungsverhältnis zwischen qualitativer, in die Tiefe gehender und auf große Datenvolumina angewiesener, quantitativ ausgerichteter Forschung aufzulösen oder zumindest zu begrenzen“, ist sich Alexander Wuttke sicher.
Die qualitative Herangehensweise, so der Forscher, sei aufwendig, Forschende müssten sich Zeit nehmen, um zu verstehen, was Menschen denken oder was sie bewegt, dieses oder jenes zu tun. „Es sind immer Interviewer erforderlich, die sich Zeit nehmen müssen. Das kann man nur bis zu einem gewissen Grad machen und nicht hundert- oder tausendfach. Große ländervergleichende Studien sind damit überhaupt nicht denkbar.“
KI-Technologie wie Large Language Models, kurz LLMs, könnten hier helfen. Ihr Einsatz erlaube es zum Beispiel, direkte Gespräche mit Fragen und Rückfragen durchzuführen und situativ zu reagieren.
Alexander Wuttke hat mit Frauke Kreuter hierzu schon eine Pilotstudie mit Studierenden angestoßen, die durchaus erfolgversprechend scheint. Allerdings gibt es auch hier Nachteile – die fehlende Empathie, die beim Vier-Augen-Gespräch gegeben sei. „Man kann wahrscheinlich Tausende Interviews am Tag führen, aber die KI kann das eben nicht mit der gleichen Empathie wie ein Mensch“, räumt Wuttke ein. Es wird sich erst noch zeigen müssen, ob die Befragten einer KI genauso bereitwillig antworten wie einem Menschen.
Algorithmen werden mit Daten trainiert. Dafür braucht die KI hochwertige Daten.Frauke Kreuter
Aus dem Kontext ihrer interdisziplinären Forschung weiß Frauke Kreuter, dass es kein Entweder-oder zwischen den bewährten sozialwissenschaftlichen Methoden und den neuen Möglichkeiten gibt, die Digitalisierung und KI der Forschung eröffnen: „Algorithmen werden mit Daten trainiert. Dafür braucht die KI hochwertige Daten“, sagt die LMU-Forscherin. „Ich sehe das Interesse an der traditionellen Datenerhebung in den Sozialwissenschaften zunehmen, schon allein deshalb, weil für die KI gute Vergleichsdaten notwendig sind.“
Zufallsstichproben sind am aussagekräftigsten. Hier wird eine Anzahl Menschen befragt, die in ihrer Zusammensetzung der Gruppe entsprechen, über die etwas ausgesagt werden soll. Soll beispielsweise das Durchschnittseinkommen in Deutschland erhoben werden, sind in der Zufallsstichprobe erwerbstätige Personen unterschiedlichen Alters, Geschlechts und mit verschiedenen Tätigkeiten vertreten.
Weniger aussagekräftig ist eine Stichprobe, bei der Personen befragt werden, die sich zum Beispiel freiwillig für eine Teilnahme melden, wie es bei Online-Umfragen oft der Fall ist. Die Ergebnisse sind dann nicht verallgemeinerbar, sondern sagen nur etwas über die Gruppe der Teilnehmenden aus.
Wichtig ist, dass Medien, die Umfragen zitieren oder sich darauf berufen, Hintergrundinformationen zum Zustandekommen der Umfragen geben. So spielt etwa die schiere Anzahl der Befragten keine Rolle, wenn die Umfrage verzerrt ist.
Coleridge-Initiative: zur Website
Forschungsprojekt KODAQS: Infos zum Programm
DFG Schwerpunktprogramm Lifbi: Projekt zu Data Donation
LUM-Studie: Lebensqualität und Umwelt